LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7 Maria Elena Bontempi e.bontempi@economia.unife.it V LEZIONE: OLS multivariato: effetti parziali, multicollinearità Scopo dell esercizio: misurare l effetto di potenziali determinanti dell abilità di lettura (y = variabile dipendente del modello). Descrizione della banca dati SCOLARI.DTA obs identificatore dell individuo i-esimo (i =,,..., 0); quindi, N = 0 f dicotomica di genere: se femmina, f = (se maschio, f = 0) eta età dell individuo in anni compiuti y indicatore (crescente) di abilità di lettura taglia taglia di scarpe m = f Nella regressione semplice y = α + β x + ε: CÔV( y,x ) βˆ (pendenza della retta) = VÂR( x ) Nella regressione multipla y = α + β x + β x + ε: ˆβ = CÔV( y,x VÂR( x )VÂR( x (analogamente, per ˆβ ). )VÂR( x ) CÔV( y,x ) )CÔV( x [ CÔV( x,x )] β è un coefficiente di regressione parziale che misura quanto varia y per un incremento unitario di x, a parità di x. Evidentemente, la regressione multipla fornisce uno stimatore ˆβ = C ÔV (y, x ) / V ÂR (x ) solo nel caso in cui C ÔV (x, x )=0, cioè quando le variabili esplicative sono incorrelate. Perciò, se x e x covariano, la stima di β dipenderà anche da C ÔV (x, x ). Lo stesso vale per la stima di β.,x ) C ÔV (y, x ) e V ÂR (x ), oltre che, ovviamente, dalla Cosa può accadere se si stima un modello semplicissimo di tipo: y = α + β taglia + ε? In altri termini, se nella regressione viene inclusa x (taglia), ma viene dimenticata x (eta), variabile esplicativa rilevante? reg y taglia -------------+------------------------------ F(, 8) = 5.5 Model 7.4998438 7.4998438 Prob > F = 0.05 Residual 6.649806 8 3.33633 R-squared = 0.3964 -------------+------------------------------ Adj R-squared = 0.309 Total 44.496545 9 4.905576 Root MSE =.85 taglia.485849.648757.9 0.05 -.009077.980776 _cons -36.95083.655 -.7 0.6-86.8934.9767
L effetto della taglia sull abilità di lettura è, sorprendentemente, positivo e significativo...se ne deve derivare che... scarpe grosse cervello fine...? Suggerimento: MAI giustificare ex post, sulla base dei risultati ottenuti, un esito di regressione ma, piuttosto, cercare di capire la genesi di tale risultato. Analisi delle potenziali esplicative della y (vale a dire, eta e taglia): in una regressione multipla sono importanti TUTTE le correlazioni fra le variabili di interesse. graph y taglia eta, matrix half label y 35 34 33 3 taglia 3 eta 0 5 0 6 7 8 9 matrix crea una matrice di scatterplot, contenente piccoli plot per ogni possibile combinazione in coppia delle variabili elencate half mostra solo la metà inferiore della matrice scatterplot label sostituisce i comandi xlabel e ylabel che non funzionano con l opzione matrix. Analisi: y e taglia, y e eta sono correlate positivamente; ma, soprattutto, taglia e eta sono correlate positivamente (con l età, crescono i piedi!). Regressione multivariata reg y taglia eta -------------+------------------------------ F(, 7) = 4.79 Model 35.70003 7.85050 Prob > F = 0.003 Residual 8.447554 7.0679346 R-squared = 0.8087 -------------+------------------------------ Adj R-squared = 0.7540 Total 44.496545 9 4.905576 Root MSE =.0985 taglia.430543.4780688 0.86 0.46 -.773987.543507 eta.484458.3875 3.88 0.006.580634.38883 _cons -.45863 4.46338-0.86 0.48-46.659.7483
Risultato radicalmente diverso dal caso precedente: l età esercita un effetto (positivo e significativo) sull abilità di lettura (fatto pienamente ragionevole), mentre l effetto della taglia di scarpe sull abilità di lettura ora non è significativamente diverso da zero (altrettanto ragionevolmente). Considerazione generale: l omissione di una variabile esplicativa rilevante (eta) comporta stime distorte dell effetto della variabile inclusa (taglia), nella misura in cui variabile omessa e variabile inclusa covariano. Di fatto, l effetto è quello di male interpretare i risultati: l omissione dell eta spinge a sovrastimare l importanza della misura delle scarpe sull abilità di lettura. Attenzione alla specificazione del modello di regressione e, in particolare, alla non omissione delle variabili esplicative rilevanti. In una regressione con più esplicative, il parametro β misura l effetto che x esercita su y dato il livello di x, cioè tenuto conto dell effetto che x esercita, allo stesso tempo, su y e su x. L effetto di questo aggiustamento statistico può essere compreso grazie ad una serie di regressioni parziali, volte a depurare sia y sia x dell effetto di x (Teorema di Frisch-Waugh) Depurazione di y dall effetto di x (eta) con la seguente regressione parziale: reg y eta -------------+------------------------------ F(, 8) = 9.78 Model 34.80 34.80 Prob > F = 0.0006 Residual 9.3484335 8.685546 R-squared = 0.7883 -------------+------------------------------ Adj R-squared = 0.768 Total 44.496545 9 4.905576 Root MSE =.08 eta.67576.306985 5.46 0.00.9673733.38379 _cons -.348808.357977-0.06 0.956-5.57386 5.3064 predict ydepx, resid Depurazione di x (taglia) dall effetto di x (eta) con la successiva regressione parziale: reg taglia eta -------------+------------------------------ F(, 8) = 4.0 Model.6463364.6463364 Prob > F = 0.080 Residual 5.808 8.6600777 R-squared = 0.3339 -------------+------------------------------ Adj R-squared = 0.506 Total 7.96558 9.8807869 Root MSE =.84 taglia Coef. Std. Err. t P> t [95% Conf. Interval] eta.469678.307.00 0.080 -.070055.9939907 _cons 9.83566.7733 6.84 0.000 5.749 33.9 predict xdepx, resid 3
La regressione semplice fra variabili depurate fornisce lo stesso risultato di stima per l effetto della taglia sull abilità di lettura (β ) ottenuto nel caso della regressione multipla. reg ydepx xdepx -------------+------------------------------ F(, 8) = 0.85 Model.90087903.90087903 Prob > F = 0.387 Residual 8.4475546 8.0559448 R-squared = 0.0964 -------------+------------------------------ Adj R-squared = -0.066 Total 9.3484339 9.038748 Root MSE =.076 ydepx Coef. Std. Err. t P> t [95% Conf. Interval] xdepx.430543.44794 0.9 0.383 -.6873.4448 _cons -7.57e-0.34953-0.00.000 -.749349.749349 In questo caso, l effetto dell età (anche se non compare fra i regressori) è implicito nell operazione di depurazione di y e x da x compiuta prima e, quindi, l esito della stima (non significativa) corrobora l idea che l effetto della taglia delle scarpe sull abilità di lettura non è significativo in un modello che dia conto della presenza di un altra rilevante esplicativa (l età). Test di significatività congiunta su più parametri del modello di regressione Nella lezione IV è stato introdotto il test di significatività dei parametri di tipo t di Student. Il test t serve per verificare una ipotesi (nulla) su un solo parametro del modello. Talvolta, può essere interessante valutare una ipotesi che coinvolge più parametri allo stesso tempo. In questi casi si utilizza il test F che sottopone a verifica H 0 : β =β =0 contro H : almeno uno dei due parametri è diverso da zero. Riferendosi alla regressione multivariata reg y taglia eta: F(,7)=4.79, con Prob>F (valore di probabilità, o P-value) = 0.003. Dall esito del test (il p-value è inferiore alla probabilita del 5%, livello di significatività) se ne evince che il rischio di commettere un errore di I specie (rifiutare H 0 vera) è molto inferiore al 5% e, quindi, la nulla è rifiutata: i due parametri sono nel complesso diversi da zero. In pratica il test F della regressione serve per valutare se la nostra regressione presenta in generale elementi di interesse; infatti sotto H 0 nessuno dei regressori è di una qualche utilità per descrivere e prevedere l abilità di lettura (la variabile dipendente). Sotto l ipotesi nulla (β =β =0) il modello vincolato è y = a + ε (cioè una costante più degli errori imprevedibili): l accettazione della nulla implica che nessuno dei regressori proposti è utile per prevedere y. Il calcolo del test F è alquanto semplice e si articola nei seguenti passi: passo () stima del modello non vincolato (regressione multipla) e memorizzazione della somma del quadrato dei residui (RSS NV = 8.447554); passo () stima del modello vincolato e memorizzazione della somma del quadrato dei residui (RSS V = 44.496545); reg y -------------+------------------------------ F( 0, 9) = 0.00 Model 0.00 0. Prob > F =. Residual 44.496545 9 4.905576 R-squared = 0.0000 -------------+------------------------------ Adj R-squared = 0.0000 Total 44.496545 9 4.905576 Root MSE =.48 4
_cons.597.700394 7.99 0.000.08 4.86 (nota per inciso che, date le formule della stima OLS della costante, la stima.597 equivale alla media campionaria di y) passo (3) calcolo della statistica test, distribuita come una F(V, N K), dove V è il numero di parametri vincolati (V=), N è il numero di osservazioni (N=0), K è il numero di parametri stimati dal modello non vincolato (K=3). Quindi nel nostro caso F(, 7): 44.5 8.45 0 3 = 4.79 (che è appunto l output del test F della regressione non vincolata) 8.45 In generale: RSSV RSS NV RSS NV RSSV RSS NV N K / ovvero: V N K RSS NV V Il test di Chow di costanza dei parametri (discusso nella lezione VII) è di tipo F. Multicollinearità Si verifica quando due (o più) regressori del modello si assomigliano molto. In questo caso, gli OLS fanno fatica a distinguere l effetto su y (stima) del parametro β rispetto a β. E un problema dei dati usati (o della natura dei regressori). Si manifesta con test t delle stime dei parametri di x e x (presi uno per volta) che non rifiutano la nulla (stime così imprecise da non differire significativamente da zero) mentre, al contempo, il test F della regressione (che considera simultaneamente entrambi i parametri) rifiuta la nulla (nel complesso le esplicative servono a qualcosa ). Esercizio A CASA relativo alla lezione V (a) Utilizzare la banca dati Urban.dta (b) Stimare il modello: criminalità (homic) funzione del disagio sociale (poor) e della popolazione (pop) (c) Interpretare le stime, confrontandole con ciò che si è ottenuto nella regressione semplice (poor unico regressore) (d) Confrontando le stime corrispondenti al regressore poor (quella semplice e quella multivariata) ci si attende che poor e pop siano o non siano correlati? Verificare la risposta graficando gli scatter per homic poor e pop. (e) Alla luce del test F della regressione, esprimere una valutazione della qualità della specificazione proposta (f) Ci troviamo o no in presenza di multicollinearità? 5